AI资讯新闻榜单内容搜索-Gemini

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: Gemini
刚刚,OpenAI最强推理模型o3-pro诞生!碾压Gemini 2.5 Pro击穿底价

刚刚,OpenAI最强推理模型o3-pro诞生!碾压Gemini 2.5 Pro击穿底价

刚刚,OpenAI最强推理模型o3-pro诞生!碾压Gemini 2.5 Pro击穿底价

最强推理模型一夜易主!深夜,o3-pro毫无预警上线,刷爆数学、编程、科学基准,强势碾压o1-pro和o3。更惊艳的是,o3价格直接暴降80%,叫板Gemini 2.5 Pro。

来自主题: AI技术研报
6308 点击    2025-06-11 13:20
AI硬件,会是下一个万亿市场吗?

AI硬件,会是下一个万亿市场吗?

AI硬件,会是下一个万亿市场吗?

模型卷得差不多了,AI硬件竞争开启了。Google前脚刚在I/O大会上预告,整合了Gemini AI的Android XR设备即将问世;OpenAI就紧随其后,宣布将以近65亿美元(约合人民币468亿元)的全股权交易方式,收购一家硬件初创公司IO。

来自主题: AI资讯
7054 点击    2025-06-09 10:15
多模态推理新基准!最强Gemini 2.5 Pro仅得60分,复旦港中文上海AILab等出品

多模态推理新基准!最强Gemini 2.5 Pro仅得60分,复旦港中文上海AILab等出品

多模态推理新基准!最强Gemini 2.5 Pro仅得60分,复旦港中文上海AILab等出品

逻辑推理是人类智能的核心能力,也是多模态大语言模型 (MLLMs) 的关键能力。随着DeepSeek-R1等具备强大推理能力的LLM的出现,研究人员开始探索如何将推理能力引入多模态大模型(MLLMs)

来自主题: AI技术研报
7747 点击    2025-06-07 10:35
冲击自回归,扩散模型正在改写下一代通用模型范式

冲击自回归,扩散模型正在改写下一代通用模型范式

冲击自回归,扩散模型正在改写下一代通用模型范式

上个月 21 号,Google I/O 2025 开发者大会可说是吸睛无数,各种 AI 模型、技术、工具、服务、应用让人目不暇接。在这其中,Gemini Diffusion 绝对算是最让人兴奋的进步之一。从名字看得出来,这是一个采用了扩散模型的 AI 模型,而这个模型却并非我们通常看到的扩散式视觉生成模型,而是一个地地道道的语言模型!

来自主题: AI技术研报
6828 点击    2025-06-04 14:04
深度|DeepMind机器人组负责人:过去人们一直将注意力集中在本体,但真正带来巨大飞跃的是机器人的心智进步

深度|DeepMind机器人组负责人:过去人们一直将注意力集中在本体,但真正带来巨大飞跃的是机器人的心智进步

深度|DeepMind机器人组负责人:过去人们一直将注意力集中在本体,但真正带来巨大飞跃的是机器人的心智进步

在机器人抓香蕉这个事情上,它们依赖的是手眼协调,靠视觉学习如何抓取香蕉。它们最有独创性的地方在于它不是因为我们教了它上千次如何抓香蕉,而是它从 Gemini 那里获得了关于“如何抓取物体”的知识,然后将这些知识应用到现实世界的动作中。

来自主题: AI资讯
5766 点击    2025-06-03 16:19
万帧?单卡!智源研究院开源轻量级超长视频理解模型Video-XL-2

万帧?单卡!智源研究院开源轻量级超长视频理解模型Video-XL-2

万帧?单卡!智源研究院开源轻量级超长视频理解模型Video-XL-2

长视频理解是多模态大模型关键能力之一。尽管 OpenAI GPT-4o、Google Gemini 等私有模型已在该领域取得显著进展,当前的开源模型在效果、计算开销和运行效率等方面仍存在明显短板。

来自主题: AI技术研报
5809 点击    2025-06-03 14:44
10个小模型并联跑赢GPT-4.1!无额外训练,方法仅4步

10个小模型并联跑赢GPT-4.1!无额外训练,方法仅4步

10个小模型并联跑赢GPT-4.1!无额外训练,方法仅4步

近年来,语言模型技术迅速发展,然而代表性成果如Gemini 2.5Pro和GPT-4.1,逐渐被谷歌、OpenAI等科技巨头所垄断。

来自主题: AI技术研报
6760 点击    2025-05-31 15:35
全面评估多模态模型视频OCR能力,Gemini 准确率仅73.7%

全面评估多模态模型视频OCR能力,Gemini 准确率仅73.7%

全面评估多模态模型视频OCR能力,Gemini 准确率仅73.7%

多模态大模型(MLLM)在静态图像上已经展现出卓越的 OCR 能力,能准确识别和理解图像中的文字内容。MME-VideoOCR 致力于系统评估并推动MLLM在视频OCR中的感知、理解和推理能力。

来自主题: AI技术研报
6505 点击    2025-05-30 17:30
见证历史!DeepSeek跃居全球第二AI实验室,R1登顶开源王座,R2全网催更

见证历史!DeepSeek跃居全球第二AI实验室,R1登顶开源王座,R2全网催更

见证历史!DeepSeek跃居全球第二AI实验室,R1登顶开源王座,R2全网催更

昨晚,终于等到了DeepSeek-R1-0528官宣。升级后的模型性能直逼o3和Gemini 2.5 Pro。如今,DeepSeek真正坐实了全球开源王者的称号,并成为了第二大AI实验室。

来自主题: AI资讯
8899 点击    2025-05-30 13:08